45 research outputs found

    ModeS TimeBank: un corpus TimeBank del español moderno

    Get PDF
    Con el objetivo de representar y analizar grandes cantidades de fuentes históricas textuales en un Sistema de Información Geográfica (SIG), se ha creado ModeS TimeBank. ModeS TimeBank es un corpus del español moderno (s. XVIII) anotado con información semántica temporal, eventiva y espacial, donde destaca el uso de los lenguajes de marcado TimeML y SpatialML. El corpus es además relevante no sólo por su datación e idioma sino por su dominio ya que está enmarcado en la temática de las redes de cooperación. El presente artículo pretende describir cómo se ha creado el corpus y qué criterios se han tenido en cuenta en su creación, además de señalar el alcance y las aplicaciones de ModeS TimeBan

    Recent developments for the linguistic linked open data infrastructure

    Get PDF
    In this paper we describe the contributions made by the European H2020 project “Pret-a-LLOD” (‘Ready-to-use Multilingual Linked Language Data for Knowledge Services across Sectors’) to the further development of the Linguistic Linked Open Data (LLOD) infrastructure. Pret-a-LLOD aims to develop a new methodology for building data value chains applicable to a wide range of sectors and applications and based around language resources and language technologies that can be integrated by means of semantic technologies. We describe the methods implemented for increasing the number of language data sets in the LLOD. We also present the approach for ensuring interoperability and for porting LLOD data sets and services to other infrastructures, as well as the contribution of the projects to existing standards

    Collaborative corpus building for minorized languages using wiki-technology. Documenting the Asturian language

    Get PDF
    Eslema is the first project devoted to building a corpus for Asturian. Asturian (or Asturian-Leonese) is the Romance language autochthonous of most of the territory in Asturias, Leon and Zamora provinces (Spain), and the district of Miranda do Douro (Portugal). Its community of speakers is estimated to be around 300,000 people, corresponding to approximately a third of the population of the area where Asturian is spoken. These figures bode ill for the future of the language since Asturian competence is notably reduced among young people, a fact that seriously threatens its generational transmission (Llera Ramo, 2002). Being the corpus of a minorized language, Eslema’s main goals are both (a) documenting Asturian in a systematic way, and (b) helping set the foundation for codifying and fully normalizing it as the language of use in any possible social context. As such, the project is conceived as a general framework for developing several subcorpora, including documents of a varied typology and from different historical periods, representing both written and oral discourse (Author, 2008a). Eslema’s scarcity of funding has prompted an alternative search for much needed resources. As with many Western minorized languages Asturian speakers feel a degree of commitment to the language and its survival. Using this to our advantege, we have developed a wiki-based environment that enables the entire Asturian community to collaboratively collect and annotate texts online, enlarging Eslema at a minimum cost. Wikis are ideally suited for this kind of activity. A wiki is essentially a website enabling non-collocated users to easily asynchronously co-edit and share documents. Wikis are very loosely structured and do not favor a particular type of content or a “tech-savvy” method of manipulating the content. Previous research has developed a platform called the WikiDesignPlatform (WDP) to support different kinds of wiki-based collaborative learning activities (Author, 2008b). The WDP provides a suite of awareness, navigational, and communicative components that can be easily layered on top of, or coupled with, standard wiki features. Using the WDP platform, we are able to quickly engineer an online workspace tailored to the needs of community. Users can easily suggest documents for classification, collectively classify texts, and communicate their work. Using the WDP’s awareness features, users can keep current on the progress of their work and the advancement of individual documents. This paper, presents the collaborative WDP-based environment we have built, its application and results in compiling the Asturian corpus. References: Author (2008a) Eslema. Towards a Corpus for Asturian. In Collaboration: interoperability between people in the creation of language resources for less-resourced languages. A SALTMIL workshop. LREC 2008. Marrakesh. Author (2008b). Supporting and Tracking Collective Cognition in Wikis. In Proceedings of ICLS 2008: International Conference for the Learning Sciences: Vol. 3 (pp. 330-337). The International Society of the Learning Sciences. Llera Ramo, F. (2002). II Estudiu siciollingüísticu d’Asturies. Avance de datos. In Lletres Asturianes, 89, 181–197

    Tractament lexicogràfic dels adjectius: aspectes a considerar

    No full text
    La informació gramatical més habitual de les entrades en un diccionari es basa quasi exclusivament en consignar la categoria sintàctica dels mots. Aquest plantejament suposa una parcel·lació massa vaga de les unitats lingüístiques, atès que en l'ús i la combinació entre elles hi entren en joc altres característiques, les quals porten a subclassificacions més precises a l'interior de les categories gramaticals. Un plantejament lexicogràfic que presenti un tractament detallat de les categories quant a les seves subclasses possibles és, a més d'útil en l'elaboració de diccionaris per a parlants de llengua estrangera, necessari també en diccionaris per a parlants natius de la llengua si, tal com és de suposar, l'ús que s'espera d'un diccionari va més enllà de la simple consulta del significat dels mots.En aquest article s'analitzen alguns dels punts que cal que els diccionaris tinguin en compte per a la descripció de l'ús real dels adjectius, es revisa quin és el tractament que reben en el diccionari pres com a font de referència (Diccionari de la Llengua Catalana (1994), d'Enciclopèdia Catalana) i s'esbossa una proposta de tractament per poder donar compte d'aquests aspectes. L'interès recau tant en qüestions d'ordre superficial dels constituents (la posició típica de les unitats), com aspectes sintàctics (la capacitat predicativa dels elements, la subcategorització de complements), així com també aspectes de tipus semàntic (la relació entre les denotacions de l'adjectiu i el substantiu, la facultat de graduabilitat dels adjectius)

    Tractament lexicogràfic dels adjectius: aspectes a considerar

    No full text
    La informació gramatical més habitual de les entrades en un diccionari es basa quasi exclusivament en consignar la categoria sintàctica dels mots. Aquest plantejament suposa una parcel·lació massa vaga de les unitats lingüístiques, atès que en l'ús i la combinació entre elles hi entren en joc altres característiques, les quals porten a subclassificacions més precises a l'interior de les categories gramaticals. Un plantejament lexicogràfic que presenti un tractament detallat de les categories quant a les seves subclasses possibles és, a més d'útil en l'elaboració de diccionaris per a parlants de llengua estrangera, necessari també en diccionaris per a parlants natius de la llengua si, tal com és de suposar, l'ús que s'espera d'un diccionari va més enllà de la simple consulta del significat dels mots.En aquest article s'analitzen alguns dels punts que cal que els diccionaris tinguin en compte per a la descripció de l'ús real dels adjectius, es revisa quin és el tractament que reben en el diccionari pres com a font de referència (Diccionari de la Llengua Catalana (1994), d'Enciclopèdia Catalana) i s'esbossa una proposta de tractament per poder donar compte d'aquests aspectes. L'interès recau tant en qüestions d'ordre superficial dels constituents (la posició típica de les unitats), com aspectes sintàctics (la capacitat predicativa dels elements, la subcategorització de complements), així com també aspectes de tipus semàntic (la relació entre les denotacions de l'adjectiu i el substantiu, la facultat de graduabilitat dels adjectius)

    De constituyentes a dependencias de base sintáctica

    Get PDF
    This paper describes the automatic process of building a dependency annotated corpus based on Ancora constituent structures. The Ancora corpus already has a dependency structure information layer, but the new annotated data applies a purely syntactic orientation and offers in this way a new resource to the linguistic research community. The paper details the process of reannotating the corpus, the linguistic criteria used and the obtained results.El presente artículo describe el proceso automático de construir un corpus de dependencias basado en la estructura de constituyentes de Ancora. El corpus Ancora ya tiene una capa de información de dependencias sintácticas, pero la nueva anotación aplica criterios puramente sintácticos y ofrece de este modo un nuevo recurso a la comunidad investigadora en el campo del procesamiento del lenguaje. El artículo detalla el proceso de reanotación del corpus, los criterios lingüísticos empleados y los resultados que se han obtenido

    Determining modality and factuality for text entailment

    No full text
    Recognizing textual entailment (TE) is a complex task involving knowledge from many different sources. One major source of information in this task is event factuality, since the inferences derivable from factual eventualities are different from those judged as possible or as non-existent. Some TE systems already factor in factuality features at the local level, but determining the factuality of events more generally involves dealing with information that is nonlocal to a particular textual event. In this paper, we present a tool providing events with their factuality values, characterized as pairs of modality and polarity features. In previous work, we identified polarity and modality at the local context with a performance of 92 % precision and 56 % recall. The research presented here extends and enhances our algorithm to incorporate the influence of non-local context as well as the identification of sources.
    corecore